尽管深度学习已经在文本和图像数据集上取得了巨大进展,但其对表格数据的优势尚不清楚。我们在大量数据集和高参数组合中为标准和新型深度学习方法以及基于树的模型(例如Xgboost和随机森林)提供了广泛的基准。我们从具有表格数据的清晰特征的各个域以及针对拟合模型和找到良好的超参数的基准测试方法来定义了一组45个数据集。结果表明,即使没有考虑其较高的速度,基于树的模型即使在中型数据($ \ sim $ 10K样本)上仍然是最先进的。为了理解这一差距,我们对基于树模型和神经网络(NNS)的不同感应偏见进行了实证研究。这导致了一系列挑战,这些挑战应指导研究人员旨在构建表格特定的NNS:1。对非信息功能保持鲁棒,2。保持数据的方向,并3.能够轻松学习不规则的功能。为了刺激对表格体系结构的研究,我们为基准的标准基准和原始数据贡献了:20 000计算小时的每个学习者的每个学习者搜索每个学习者。
translated by 谷歌翻译
In a series of recent theoretical works, it was shown that strongly overparameterized neural networks trained with gradient-based methods could converge exponentially fast to zero training loss, with their parameters hardly varying. In this work, we show that this "lazy training" phenomenon is not specific to overparameterized neural networks, and is due to a choice of scaling, often implicit, that makes the model behave as its linearization around the initialization, thus yielding a model equivalent to learning with positive-definite kernels. Through a theoretical analysis, we exhibit various situations where this phenomenon arises in non-convex optimization and we provide bounds on the distance between the lazy and linearized optimization paths. Our numerical experiments bring a critical note, as we observe that the performance of commonly used non-linear deep convolutional neural networks in computer vision degrades when trained in the lazy regime. This makes it unlikely that "lazy training" is behind the many successes of neural networks in difficult high dimensional tasks.
translated by 谷歌翻译
We leverage path differentiability and a recent result on nonsmooth implicit differentiation calculus to give sufficient conditions ensuring that the solution to a monotone inclusion problem will be path differentiable, with formulas for computing its generalized gradient. A direct consequence of our result is that these solutions happen to be differentiable almost everywhere. Our approach is fully compatible with automatic differentiation and comes with assumptions which are easy to check, roughly speaking: semialgebraicity and strong monotonicity. We illustrate the scope of our results by considering three fundamental composite problem settings: strongly convex problems, dual solutions to convex minimization problems and primal-dual solutions to min-max problems.
translated by 谷歌翻译
迄今为止对文本生成的评估主要集中在依次创建的内容上,而不是对文本的改进。但是,写作自然是一个迭代和增量过程,需要在不同的模块化技能上进行专业知识,例如修复过时的信息或使样式更加一致。即便如此,对模型执行这些技能和编辑能力的模型能力的全面评估仍然很少。这项工作介绍了EditeVal:基于指导的,基准和评估套件,该套件利用现有的现有和新数据集自动评估编辑功能,例如使文本更具凝聚力和释义。我们评估了几种预训练的模型,这表明指令和同伴表现最好,但是大多数基准都落在监督的SOTA以下,尤其是在中和和更新信息时。我们的分析还表明,用于编辑任务的常用指标并不总是很好地关联,并且对具有最高性能的提示的优化并不一定带来对不同模型的最强鲁棒性。通过发布此基准和公开可用的排行榜挑战,我们希望在开发能够迭代和更可控制的编辑模型中解锁未来的研究。
translated by 谷歌翻译
文本内容通常是协作写作过程的输出:我们从初始草稿开始,提出建议并反复进行更改。不可知的是,当今的语言模型只能产生最终结果。结果,他们缺乏对协作写作至关重要的几种能力:他们无法更新现有文本,难以控制和无法进行口头计划或解释其行为。为了解决这些缺点,我们介绍了Peer,这是一种协作语言模型,经过训练以模仿整个写作过程本身:Peer可以编写草稿,添加建议,提出编辑并为其行为提供解释。至关重要的是,我们训练多个同伴能够填补写作过程的各个部分的实例,从而可以使用自训练技术来提高培训数据的质量,数量和多样性。这通过使其适用于没有编辑历史的域,并提高其遵循说明,编写有用的评论并解释其动作的能力,从而释放了Peer的全部潜力。我们表明,同行在各个领域和编辑任务上取得了强大的性能。
translated by 谷歌翻译
大型语言模型在各种任务上显示出令人印象深刻的几次结果。但是,当知识是此类结果的关键时,就像问题回答和事实检查之类的任务一样,似乎需要存储知识的大量参数计数。众所周知,检索增强模型可以在不需要多个参数的情况下在知识密集的任务上表现出色,但是目前尚不清楚它们是否在几个弹药设置中工作。在这项工作中,我们介绍了地图集,这是一个经过精心设计和预先训练的增强语言模型,能够通过很少的培训示例学习知识密集型任务。我们对包括MMLU,苏格兰短裙和归类等各种任务进行评估,并研究文档索引内容的影响,表明它可以很容易地进行更新。值得注意的是,在自然问题上仅使用64个示例在自然问题上达到超过42 \%的准确性,尽管参数少了50倍,但比540B参数模型的表现优于540b参数模型。
translated by 谷歌翻译
我们表明,sindhorn-knopp算法的衍生物或迭代比例拟合程序会以局部统一的线性收敛速率收敛于最佳运输问题的熵正则化的衍生物。
translated by 谷歌翻译
最先进的计算机视觉方法的性能飞跃归因于深度神经网络的发展。但是,它通常以计算价格可能会阻碍其部署。为了减轻这种限制,结构化修剪是一种众所周知的技术,它包括去除通道,神经元或过滤器,并且通常用于生产更紧凑的模型。在大多数情况下,根据相对重要性标准选择要删除的计算。同时,对可解释的预测模型的需求极大地增加了,并激发了强大归因方法的发展,该方法突出了输入图像或特征图的像素的相对重要性。在这项工作中,我们讨论了现有的修剪启发式方法的局限性,其中包括基于梯度和基于梯度的方法。我们从归因方法中汲取灵感来设计一种新型的集成梯度修剪标准,其中每个神经元的相关性被定义为梯度变化在通往这种神经元去除的路径上的积分。此外,我们提出了一个纠缠的DNN修剪和微调流程图,以更好地保留DNN准确性,同时删除参数。我们通过在几个数据集,架构以及修剪场景上进行广泛的验证,该方法称为Singe,大大优于现有的最新DNN修剪方法。
translated by 谷歌翻译
在各种科学和临床环境中,快速无创探测空间变化的非相关事件(例如人类头骨下方的脑血流)是一项必不可少的任务。所使用的主要光学技术之一是弥漫性相关光谱(DC),其经典实现使用单个或几个单光子检测器,导致空间定位精度较差,时间分辨率相对较低。 Here, we propose a technique termed Classifying Rapid decorrelation Events via Parallelized single photon dEtection (CREPE)}, a new form of DCS that can probe and classify different decorrelating movements hidden underneath turbid volume with high sensitivity using parallelized speckle detection from a $32\times32 $像素SPAD阵列。我们通过对隐藏在5mm组织样的幻影下的不同时空 - 偏置模式进行分类来评估我们的设置,该模式由快速反相关的动态散射介质制成。十二个多模式纤维用于从组织幻影表面的不同位置收集散射光。为了验证我们的设置,我们通过在Multi-Kilo-Hertz速率下调制的数字微龙器设备(DMD)以及含有流动流体的容器幻影。除了具有胜过经典无监督学习方法的深层对比学习算法外,我们证明我们的方法可以准确地检测和分类浊度散射介质下的不同瞬态去相关事件(发生在0.1-0.4s中),而无需任何数据标记。这有可能应用于非侵入性的深层组织运动模式,例如在紧凑和静态检测探针内以多赫兹速率识别正常或异常的脑血流事件。
translated by 谷歌翻译
Action Unit (AU) Detection is the branch of affective computing that aims at recognizing unitary facial muscular movements. It is key to unlock unbiased computational face representations and has therefore aroused great interest in the past few years. One of the main obstacles toward building efficient deep learning based AU detection system is the lack of wide facial image databases annotated by AU experts. In that extent the ABAW challenge paves the way toward better AU detection as it involves a 2M frames AU annotated dataset. In this paper, we present our submission to the ABAW3 challenge. In a nutshell, we applied a multi-label detection transformer that leverage multi-head attention to learn which part of the face image is the most relevant to predict each AU.
translated by 谷歌翻译